专利摘要:
画像と、その画像と関連する位置情報とから前記画像の環境を認識する方法である。該方法は、前記画像とそれに関連する位置情報とを取得する段階と、前記位置情報を用いて前記位置情報に関連する空間像を取得する段階と、前記関連する空間像から前記画像の環境を特定する段階と、後で使用するために前記画像と関連付けて前記画像の環境を記憶する段階とを有する。
公开号:JP2011511365A
申请号:JP2010545006
申请日:2009-01-27
公开日:2011-04-07
发明作者:ハオ,ウェイ;エフ マッキンタイアー,デール;ルオ,ジエボ
申请人:イーストマン コダック カンパニー;
IPC主号:G06T7-00
专利说明:

[0001] 本発明は、画像コンテンツとその画像を撮った場所に関する位置情報とを用いた画像環境の認識に関する。]
背景技術

[0002] コンピュータを用いたデジタルメディアアセットのコンテンツの意味の分析と識別は、意味論的理解(semantic understanding)として知られており、デジタルアセットを用いてユーザ体験を充実できる重要な分野である。デジタルイメージングの領域における意味論的理解のタイプとして、誕生日、野球の試合、コンサート、その他の画像撮影したイベントのタイプである、ユーザが撮ったイベントのタイプを識別する分析がある。一般的には、こうしたイベントを、トレーニング画像(a set of training images)を用いて学習した確率的グラフィックモデルを用いて認識し、新しく分析する画像があるイベントタイプに属する確率を計算する。このタイプのモデルは、例えば、L-J. Li、L. Fei-Fei著「What, where and who? Classifying event by scene and object recognition」(Proceedings of ICCV, 2007)に記載されている。]
[0003] イベントタイプの認識を、ベイジアンネットワークのような古典的アプローチにより現在得られるもの以上に改善する必要がある。多くの場合、地域参照名前空間データベースへのエントリが、イベントの分類に十分役立つ。場所に関する追加的な意味論的知識を得て、その場所で撮影した画像の分類に役立てる必要がある。]
[0004] 本発明によれば、画像と、前記画像に関連する位置情報とから前記画像の環境を認識する方法を提供する。該方法は、
(a)前記画像とそれに関連する位置情報とを取得する段階と、
(b)前記位置情報を用いて前記位置情報に関連する空間像を取得する段階と、
(c)前記関連する空間像から前記画像の環境を特定する段階と、
(d)後で使用するために前記画像と関連付けて前記画像の環境を記憶する段階とを有する。]
[0005] 本発明の特徴と利点には、画像の位置情報に関連する参照画像を用いて、画像の環境のタイプをよりよく理解し、イベントやアクティビティの潜在的な性質の理解を容易にすることが含まれる。]
図面の簡単な説明

[0006] 本発明を利用できるシステムを示す図である。
本発明の一実施形態を実施するフローチャートである。
環境タイプの例のオントロジ構造を示す表である。
画像例とそれに対応する環境の空間像(aerial images)とを示す図である。
画像例とそれに対応する環境の空間像(aerial images)とを示す図である。]
実施例

[0007] 図1にシステム10を示した。システム10は、本発明を実施するのに必要な要素を有し、計算デバイス12、インデックスサーバ14、空間像サーバ16、及び通信ネットワーク20を含む。計算デバイス12は画像を格納するパーソナルコンピュータでよい。ここで、画像とは静止画像と動画像すなわちビデオ画像とを両方とも含むものとする。計算デバイス12は、デジタルカメラや携帯電話カメラ(図示せず)などにより撮られた画像を格納するために、これらの様々なデバイスと通信する。撮影されたこれらの画像はさらに、撮影デバイスにより提供されるグローバルポジショニングシステム(GPS)データなどの位置情報を含み得る。計算デバイス12は通信ネットワーク20を介してインターネットサービスとも通信できる。インターネットサービスは、位置情報無しで撮影された画像を利用し、その画像に対する位置情報をユーザに追加させる。いずれの場合であっても、位置情報を有する画像は本技術分野において周知である。] 図1
[0008] インデックスサーバ14は、画像のコンテンツを分析してイベントタイプなどの意味論的情報を求めるコンピュータ命令の形式のアルゴリズムを実行するための、通信ネットワーク20上で利用できる別のコンピュータ処理デバイスである。言うまでもなく、インデックスサーバ14によるウェブサービスとしてシステム10のこの機能を提供することは、本発明を限定しない。計算デバイス12も、インデックスのために提供された画像の分析をするアルゴリズムを実行するように構成してもよい。]
[0009] 空間像サーバ16は、通信ネットワーク20を介して他の計算デバイスと通信し、要求があれば、提供される位置情報に関連する空間像を提供する。空間像サーバ16に格納された空間像は、飛行機を含む有人操縦航空機や衛星を含む無人操縦航空機により撮影される。空間像は、特定の高度を真上から見下ろすカメラにより撮影してもよいし、撮影画像の3次元情報を保存するように斜めに撮影してもよい。Pictometry International Corp.は、位置情報と関連付けた、斜めに撮影した空間像を提供する会社の1つである。周知のインターネットサービスが、物理的アドレス、GPSデータ、その他の形式の位置情報(例えば、位置が知られた企業名)などの位置情報に関連づけられた衛星空間像を提供している。空間像はそれに関連するメタデータを有してもよい。メタデータは空間像サーバ上に空間像と関連付けて格納できる。空間像と関連するメタデータは、その画像により表される物理的エリア内にある企業名、歴史的建造物、公園その他の情報を含んでいてもよい。これらのメタデータは要求に応じて空間像とともに提供してもよい。また、空間像は、特定の高度から実際に撮影または撮影のシミュレーションを表すいろいろな解像度で提供できる。高解像度の空間像はより詳細を表すものであり、一般的には撮影により多くの費用がかかる。高解像度の空間像はより大きなファイルであり、より大きな帯域幅を要し、そのため送信に時間がかかる。]
[0010] 図2には、本発明を実施するのに必要なステップのシーケンスを示すプロセス図を示した。ステップ22において、GPSデータなどの関連位置情報を含む画像を取得する。位置情報は、好ましくはメタデータの形で画像と関連付けられているが、本発明の範囲から逸脱することなく、単に画像と関連づけて供給されてもよい。画像は、計算デバイス12により、その内部記憶装置から提供されてもよいし、または計算デバイス12がアクセスできる任意の記憶デバイスやシステム(例えば、ローカルネットワーク記憶デバイスやオンライン画像記憶サイト)から提供されてもよい。ステップ22において提供される位置情報を用いて、計算デバイス12は、ステップ24において空間像サーバ14に位置情報を提供し、その位置情報と関連する空間像を取得する。] 図2
[0011] ステップ24で取得した空間像を用いて、計算デバイス12は、ステップ26において分類子を用いて次のように画像の環境を特定する。近年、多数人が画像を非順序画像パッチ(unordered set of image patches)すなわち「ビジュアルワードのバッグ(bag of visual words)」として表すと効率がよいことを示した(F.-F. Li and P. Perona, A Bayesian hierarchical model for learningnatural scene categories, Proceedings ofCVPR, 2005; S. Lazebnik, C. Schmid, and J. Ponce, Beyond bags of features: spatial pyramid matching for recognizing natural scene categories, Proceedings of CVPR, 2006)。各トレーニング画像について好適な記述(例えば、いわゆるSIFT記述子)を計算し、この記述をさらにビンにクラスター分けして、「ビジュアルワード」よりなる「ビジュアルボキャブラリ」を構成する。これは、SIFT記述子を「ビジュアルワード」にクラスター分けして、その出現頻度により画像を表すためである。これらの記述子をクラスター化するため、周知のk-meansアルゴリズムをコサイン距離尺度とともに用いる。]
[0012] この表示はこれらのパッチの空間的な構成に関する情報を捨ててしまうが、分類や認識のタスクにおけるこのタイプの表示を用いるシステムの性能はすばらしい。具体的には、画像を固定のグリッドでパーティションして、順序付けされていない一組の画像パッチ(unordered set of image patches)として表す。好適な記述を各画像パッチに対して計算し、ビンにクラスター化して、「ビジュアルボキャブラリ(visual vocabulary)」を構成する。本発明では、各画像グリッドを特徴付けるために、同じ方法論を適合させて、その方法論をカラーフィーチャとテクスチャフィーチャの両方を考慮するように拡張する。]
[0013] カラーフィーチャを抽出するため、画像グリッドをさらに2×2の等サイズのサブグリッドにパーティションする。次に、各サブグリッドについて、R、G、Bの平均値を抽出して、4×3=12個のフィーチャのベクトルを構成する。このフィーチャベクトルは4つのサブグリッドのカラー情報を特徴付けるものである。テクスチャフィーチャを抽出するため、各サブグリッドで8つの方向ビンを有するヒストグラムの2×2配列を使ってもよい。このように、4×8=32次元のSIFT記述子を使って各画像グリッド内の構造を特徴付ける。これはLazebnik et al.の考え方と同様である。本発明の好ましい一実施形態では、画像が20万画素より大きければ、まず20万画素にサイズ変更する。そして画像グリッドサイズを16×16に設定し、重なるサンプリング区間を8×8とする。典型的には1つの画像からこのようなグリッドが117個できる。]
[0014] 本発明では、画像グリッドから原画像フィーチャをすべて抽出してから、k-meansクラスター化によりトレーニングデータセットのすべての画像グリッドをクラスター化して、カラーボキャブラリとテクスチャボキャブラリを別々に構成する。本発明では、両方のボキャブラリのサイズを500に設定する。トレーニング画像のセットのグリッドをすべて集約して、イベントに対する2つの規格化されたヒストグラムhe、htを求める。これらはそれぞれカラーボキャブラリとテクスチャボキャブラリのワード分布に対応している。heとhtとを連結すると、その結果はサイズが1000の規格化されたワードヒストグラムとなる。ヒストグラムの各ビンは対応するワードの出現頻度を示す。]
[0015] 位置座標に基づき求めた各入力空間像に対して、上記の通り、カラーワードのバッグとテクスチャワードのバッグとを両方とも計算する。あるタイプ(すなわちクラス)の環境に対応する画像はそのクラスのトレーニングセットを構成する。すべてのクラスのトレーニングセットが、トータルトレーニングセットを構成する。このトレーニングセットを用いて分類子をトレーニングする。]
[0016] 本発明の好ましい実施形態では、SAMME(by J. Zhu, S. Rosset, H. Zou, and T. Hastie. Multi-class Adaboost. Technique Report, 2005)として知られる分類子を、マルチクラス問題を解く分類子として選択する。AdaBoost.MHと呼ばれる別のアルゴリズムはK回の1対全分類(K one-against-all classifications)を実行する必要があるが、これと比較してSAMMEはKクラス分類を直接実行する。SAMMEは、当てずっぽうよりは良い(例えば、正しい確率が1/Kより大きい)弱い分類子(weak classifiers)があればよく、標準的な2クラスAdaBoostが必要とするような1/2より大きいものは必要としない。]
[0017] 分類を要する各入力空間像に対して、上記の通り、カラーワードのバッグとテクスチャワードのバッグとを両方とも計算する。トレーニングされた分類子を入力画像のワードのバッグに適用して、その入力画像の環境のクラスを生成する。]
[0018] 言うまでもなく、場所によっては複数の環境を有していてもよい。例えば、ニューヨーク州ハニオイェフォールスのノースメインストリートにあるロータリーパークには駐車環境、ピクニック環境、フィッシング環境、サッカー環境がある。限定としてではなく例として、環境には、野球場、フットボール場、テニスコート、ゴルフコース、居住エリア、商業施設、学校、ショッピングモール、遊び場、公園、海岸、森林、テーマパークがある。図3の表35に示す通り、環境には所定の単純化された環境オントロジが付随していてもよい。コンピュータ化学と情報科学において、オントロジとは、ドメイン内の一組のコンセプトと、そのコンセプト間の関係とを表すデータモデルである。オントロジを用いてそのドメイン内のオブジェクトについて推論する。図3の例では、非常に簡単なオントロジを2つの環境例に対して示した。図3に列挙したコンセプト間の関係は示していないが、関係を設ければ、アクティビティやイベントの性質を推論するために環境のオントロジの使用を支援できる。] 図3
[0019] ステップ28において、画像について特定された環境はその画像と関連付けて格納される。好ましくは、上記環境は、画像とともにEXIFデータなどのメタデータとして格納される。ステップ30において、データベース中のデータとして、画像と関連させて環境を格納できる。格納された画像の環境により、その画像に関連するイベントやアクティビティの性質に関する推論を行う。インデックスサーバ14または計算デバイス12は、格納された画像の環境により、例えば野球場であれば、イベントの性質が野球の試合であると推論できる。推論によりそのイベントが野球の試合として正しく分類できる。インデックスサーバ14が図4aに示したように画像を分析して、野球のグローブとベースボールがあることを検出した場合、これらのオブジェクトが野球場環境のオントロジに見つかると、そのイベントが野球の試合として適切に分類されているという、より確実な証拠となる。しかし、図4bに示したように、画像を分析して、ギター、人、ドラムセットなどのオブジェクトを判断して、それでも環境が野球場であるとされた場合には、イベントを野球の試合と分類することはおそらく正しくない。格納された画像の環境とその画像とを両方とも見ることによって、コンサートであるとの正しい推論をできる。空間像とともにメタデータが与えられていれば、その画像に関連するイベントやアクティビティの性質に関する推論をするときに、さらにその情報を他のデータと合わせて考慮することができる。後で使用したいときには、格納された環境のオントロジに加えて、空間像とともに提供されたメタデータを、格納することもできる。] 図4a 図4b
[0020] アクティビティやイベントの性質を推論したので、計算デバイス12は、ステップ32において、推論されたイベントの画像(collection of images)を検索できる。イベントタイプ、格納された環境、格納された環境の要素、画像または空間像に関連するオントロジまたはメタデータを、単独または組み合わせて用いて、画像の検索を構成してもよい。検索する画像は、計算デバイス12のユーザのものでも、計算デバイス12に常駐のものであってもよし、計算デバイス12上で実行されたウェブブラウザにより実装されたグーグルイメージサーチなどのツールを用いて通信ネットワーク20を解して検索できる、公開された画像であってもよい。もう1つ、ウェブブラウザを用いてオンラインで検索できる画像コレクションでよく使われるものは、www.flickr.comにおいてFlickR(商標)により運営されている。ここではテキストタグを用いて画像を検索する。]
[0021] 図4aにおいて、画像40を、それに関連する位置情報の提供に応じて空間像サーバ14により提供される空間像42とともに示した。リスト44は、画像40のインデックス分析により決定されたオブジェクトを示し、リスト46は空間像42に関連するメタデータを示す。イベントの潜在的な性質が野球の試合であるという推論はほぼ確実であり、リスト中の用語を用いて同様のコンテンツを有する画像(images in the collection)を検索できる。同様に、図4bにおいて、異なる日時に同じ位置情報でもって撮影された画像48を、空間像42とともに示した。リスト50は、画像40のインデックス分析により決定されたオブジェクトを示す。リスト50とリスト46とを比較すると、このイベントの潜在的な性質が野球の試合であるとの推論は正しくない。格納された画像の環境とその画像とを両方とも考慮することによって、コンサートであるとの得心のいく推論をできる。] 図4a 図4b
[0022] 10 システム
12計算デバイス
14インデックスサーバ
16空間像サーバ
20通信ネットワーク
22 ステップ
24 ステップ
26 ステップ
28 ステップ
30 ステップ
32 ステップ
35 表
40 画像
42 取得空間像
44リスト
46 リスト
48 画像
50 リスト]
权利要求:

請求項1
画像と、その画像と関連する位置情報とから前記画像の環境を認識する方法であって、(a)前記画像とそれに関連する位置情報とを取得する段階と、(b)前記位置情報を用いて前記位置情報に関連する空間像を取得する段階と、(c)前記関連する空間像から前記画像の環境を特定する段階と、(d)後で使用するために前記画像と関連付けて前記画像の環境を記憶する段階とを有する方法。
請求項2
前記空間像は衛星画像または飛行機から取得した画像である、請求項1に記載の方法。
請求項3
前記空間像の取得は、前記画像の環境を特定するのに必要な適切な解像度の選択を含む、請求項2に記載の方法。
請求項4
前記環境には、野球場、フットボール場、テニスコート、ゴルフコース、居住エリア、商業施設、学校、ショッピングモール、遊び場、公園、海岸、森林、またはテーマパークを含む、請求項1に記載の方法。
請求項5
格納された前記画像の環境から、前記画像に関連するイベントまたはアクティビティの潜在的な性質に関する推論を行う段階と、前記イベントの画像を検索する段階とをさらに含む、請求項1に記載の方法。
請求項6
格納された前記画像の環境と前記画像とにより推論を行う、請求項5に記載の方法。
請求項7
格納された環境を用いて前記イベントの画像を検索する、請求項5に記載の方法。
請求項8
取得した空間像に関連するメタデータを取得する段階と、後で使用するため、格納した環境に関連づけて前記メタデータを格納する段階とをさらに含む、請求項1に記載の方法。
請求項9
格納された前記画像の環境と格納されたメタデータとから、前記画像に関連するイベントまたはアクティビティの潜在的な性質に関する推論を行う段階と、前記イベントの画像を検索する段階とをさらに含む、請求項8に記載の方法。
請求項10
格納された前記画像の環境と前記画像と前記メタデータとにより推論を行う、請求項9に記載の方法。
請求項11
画像と、その画像と関連する位置情報とから前記画像の環境を認識するシステムであって、(a)前記画像とそれに関連する位置情報とをメモリに格納する手段と、(b)空間像サーバと通信し、前記位置情報を用いて前記位置情報に関連する空間像を取得する手段と、(c)取得した空間像に応じて、分類子を用いて、取得した空間像から前記画像の環境を特定するインデックスサーバと、(d)後で使用するために前記画像と関連付けて前記画像の環境を記憶する手段とを有するシステム。
請求項12
前記インデックスサーバは、異なる環境の特徴を特定する少なくとも1つの識別子を含む、請求項11に記載のシステム。
請求項13
前記環境には、野球場、フットボール場、テニスコート、ゴルフコース、居住エリア、商業施設、学校、ショッピングモール、遊び場、公園、海岸、森林、またはテーマパークを含む、請求項11に記載のシステム。
請求項14
格納された前記画像の環境から、前記画像に関連するイベントまたはアクティビティの潜在的な性質に関する推論を行う手段と、前記イベントの画像を検索する手段とをさらに含む、請求項13に記載のシステム。
請求項15
画像と、その画像と関連する位置情報とから前記画像の環境を認識する方法であって、(a)前記画像とそれに関連する位置情報とを取得する段階と、(b)前記位置情報を用いて前記位置情報に関連する空間像を取得する段階と、(c)異なる環境の特徴を特定する少なくとも1つの分類子を提供して、取得した空間像から前記画像の環境を特定する段階と、(d)後で使用するために前記画像と関連付けて前記画像の環境を記憶する段階とを有する方法。
請求項16
前記環境には、野球場、フットボール場、テニスコート、ゴルフコース、居住エリア、商業施設、学校、ショッピングモール、遊び場、公園、海岸、森林、またはテーマパークを含む、請求項15に記載の方法。
請求項17
格納された前記画像の環境から、前記画像に関連するイベントまたはアクティビティの潜在的な性質に関する推論を行う段階と、前記イベントの画像を検索する段階とをさらに含む、請求項15に記載の方法。
类似技术:
公开号 | 公开日 | 专利标题
Yu et al.2019|Spatial pyramid-enhanced NetVLAD with weighted triplet loss for place recognition
Xiao et al.2016|Sun database: Exploring a large collection of scene categories
Cheng et al.2015|Effective and efficient midlevel visual elements-oriented land-use classification using VHR remote sensing images
Zhang et al.2016|Weakly supervised learning based on coupled convolutional neural networks for aircraft detection
Arietta et al.2014|City forensics: Using visual elements to predict non-visual city attributes
Zhang et al.2014|Fusion of multichannel local and global structural cues for photo aesthetics evaluation
KR101826815B1|2018-02-07|이미지-특징-기반 인식을 위한 시스템들 및 방법들
Liu et al.2017|Classifying urban land use by integrating remote sensing and social media data
US9129148B1|2015-09-08|System, method and apparatus for scene recognition
US9454714B1|2016-09-27|Sequence transcription with deep neural networks
Ordonez et al.2014|Learning high-level judgments of urban perception
Zhu et al.2016|Bag-of-visual-words scene classifier with local and global features for high spatial resolution remote sensing imagery
Bai et al.2014|VHR object detection based on structural feature extraction and query expansion
Chen et al.2011|City-scale landmark identification on mobile devices
Zhong et al.2016|Fully convolutional networks for building and road extraction: Preliminary results
Singh et al.2013|Nonparametric scene parsing with adaptive feature relevance and semantic context
RU2608261C2|2017-01-17|Автоматическое генерирование тега на основании содержания изображения
Weyand et al.2016|Planet-photo geolocation with convolutional neural networks
Zhao et al.2015|Dirichlet-derived multiple topic scene classification model for high spatial resolution remote sensing imagery
US8831352B2|2014-09-09|Event determination from photos
Datta et al.2005|Content-based image retrieval: approaches and trends of the new age
Cao et al.2015|Landmark recognition with sparse representation classification and extreme learning machine
Cummins et al.2011|Appearance-only SLAM at large scale with FAB-MAP 2.0
Xu et al.2016|Video structured description technology based intelligence analysis of surveillance videos for public security applications
CN103069415B|2016-10-26|用于图像处理的计算机实施的方法、计算机程序产品和计算机系统
同族专利:
公开号 | 公开日
US20090190797A1|2009-07-30|
JP5647523B2|2014-12-24|
WO2009134292A2|2009-11-05|
CN101911098B|2014-09-17|
CN101911098A|2010-12-08|
EP2320351A1|2011-05-11|
WO2009134292A3|2010-05-06|
EP2238561A2|2010-10-13|
US8116596B2|2012-02-14|
引用文献:
公开号 | 申请日 | 公开日 | 申请人 | 专利标题
法律状态:
2012-01-18| A621| Written request for application examination|Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120117 |
2012-01-18| A521| Written amendment|Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120117 |
2013-01-17| A521| Written amendment|Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130116 |
2013-04-04| A977| Report on retrieval|Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130404 |
2013-04-05| A711| Notification of change in applicant|Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20130404 |
2013-04-17| A131| Notification of reasons for refusal|Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130416 |
2013-07-17| A601| Written request for extension of time|Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130716 |
2013-07-24| A602| Written permission of extension of time|Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130723 |
2013-08-15| A521| Written amendment|Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130814 |
2014-03-12| A131| Notification of reasons for refusal|Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140311 |
2014-06-12| A521| Written amendment|Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140611 |
2014-10-08| TRDD| Decision of grant or rejection written|
2014-10-15| A01| Written decision to grant a patent or to grant a registration (utility model)|Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141014 |
2014-11-13| A61| First payment of annual fees (during grant procedure)|Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141107 |
2014-11-14| R150| Certificate of patent or registration of utility model|Ref document number: 5647523 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
2017-10-31| R250| Receipt of annual fees|Free format text: JAPANESE INTERMEDIATE CODE: R250 |
2018-10-30| R250| Receipt of annual fees|Free format text: JAPANESE INTERMEDIATE CODE: R250 |
2019-11-14| LAPS| Cancellation because of no payment of annual fees|
优先权:
申请号 | 申请日 | 专利标题
[返回顶部]